min rank | avg. rank | sentence |
---|---|---|
9646 | 27164.5000 | विद्युतीकृत लोहमार्ग / अविद्युतीकृत लोहमार्ग. |
8226 | 46255.8333 | सॅकराय; द्राक्ष –प्लॅस्मोपॅरा व्हिटीकोला; काकडी –स्युडोपेरोनोस्पोरा क्युबेन्सिस; कांदा –पेरोनोस्पोरा डिस्ट्रक्टर; चुका –पे. |
6453 | 19076.6667 | अपार द्रव्यसाठा सापडला. |
5504 | 6922.7500 | एवढ्या विस्तीर्ण भूभागावर पसरली. |
4581 | 12422.3333 | ठळक नोंदी ’इंडिया-भारत’ |
4036 | 18178.2000 | काळाचिये उडी पडेल बा जेव्हां। |
3908 | 26586.0909 | नावांची आद्याक्षरे - ये, यो, भा, भी, भू, धा, फा, टा, भे. |
3908 | 9341.0000 | ये च धम्मा अतीता च, ये च धम्मा अनागता। |
3908 | 9693.4444 | ये च बुद्धा अतीता च, ये च बुद्धा अनागता। |
3813 | 20521.5000 | नरेंद्र दाभोलकर, कॉ. |
3608 | 8152.7500 | परिमेय संख्यांचा संच संच ( |
3469 | 26373.2500 | बिंदू नानुभाई देसाई ( |
3458 | 19491.4286 | त्यापेक्षा माणसाला लाकडे तोडण्याचे कौशल्य शिकवलेले बरे. |
3114 | 9615.6000 | अत्याधुनिक तंत्रज्ञानाने सज्ज रुग्णालये उभारणे. |
3019 | 30229.0000 | दख्खन राणीत मुर्दाड मनुष्य ॥४॥ |
2960 | 17718.3333 | तिथल्या तिथं तळमळतं. |
2851 | 13268.5000 | सुधीर देवीप्रसाद शर्मा (स्वागताध्यक्ष बिशप रा. |
2847 | 8888.6667 | अरविंद बोबडे, व्ही. |
2712 | 17748.0000 | बाजरी, भुईमुग, गहू, हरभरा, बटाटा, भाजीपाला, चारापिके, ऊस इ. |
2663 | 15176.3333 | टबमॅन, विल्यम व्ही. |
2594 | 9115.3333 | सदस्यांमध्ये मतभेद नसतात. |
2585 | 36486.6000 | लयी वायीटवंगाळ बोल्लो राव तुम्हाला. |
2572 | 18353.3333 | ईश्वरावर श्रद्धा नसलेले जगाच्या कल्याणाकरिता झटतात. |
2564 | 8628.3333 | गळ्याभोवती घट्ट बसतो. |
2543 | 20585.4000 | इथपर्यंत तुझे यशोगान ऐकू येतं. |
2518 | 36089.1250 | ऐसो है कोई परम सनेही, तुरत सनेसो लावै। |
2465 | 11454.6667 | उगीचच प्रसिद्धी मिळेल. |
2465 | 3689.3333 | नक्कीच आराम मिळेल. |
2460 | 18965.2500 | नमस्कार माझा सद्गुरू रामदासा। |
2443 | 13280.4000 | पाण्यातील बॅक्टेरियांची पातळी धोकादायक बनते. |
In contrast to subsection 4.5.2.1 we now search for sentences consisting of rare words only. The sentences are ordered by the rank of the most frequent word in a sentence. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The sentences are forced not to contain any everyday word. As a consequence, we get either sentences of some very reduced structure or sentences in some foreign language. Hence, the data are useful for the evaluation of the preprocessing, especially language detection.
select min(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m desc limit 30;
Should we remove the sentences having its least frequent word above some threshold?
4.5.2.1 Maximum word rank in sentence
4.5.2.2 Average word rank in sentence
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II